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新 闻 App 用 户 行 为 分 析 的 实现 


摘 ”要 : 本 文 对 新 闻 App 用 户 行为 数据 采集 方式 、 数 据 分 析 方 法 进行 了 研究 ， 提 出 了 一 种 适用 于 新 闻 App 用 户 行为 高 效 分 
析 的 方法 。 该 方法 使 用 splunk 进行 后 端 数据 分 析 ， 通 过 对 列 方式 解决 用 户 行为 数据 高 并 发 问题 ， 保 证 了 App 的 高 可 用 性 。 
文中 叙述 的 方法 已 经 在 实际 使 用 的 App 中 进行 了 部 署 ， 并 经 受 了 长 时 间 的 运行 考验 ， 可 为 类 似 新 闻 阅 读 类 应 用 提供 现实 参考 。 
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1. 用 户 行为 分 析 意 义 
用 户 行为 ， 简 单 来 说 就 是 用 户 在 网 站 或 App 上 进行 
操作 而 产生 的 一 系列 行为 。 

在 获取 网 站 或 者 App 等 平台 用 户 访问 基本 数据 后 ， 
对 相关 数据 进行 统计 分 析 ， 从 中 发 现 用 户 的 行为 习惯 和 
潜在 需求 ， 有 针对 地 解决 业务 相关 问题 、 提 高 用 户 体验 ， 
并 为 决策 提供 依据 的 过 程 我 们 称 之 为 用 户 行为 分 析 。 

那么 ， 为 什么 要 进行 用 户 行为 分 析 ? 截至 2018 年 12 
月 底 ,我 国 网 站 数量 为 $523 万 个 ,App 在 架 数 量 为 449 万 款 ， 
每 个 领域 都 拥有 成 百 上 千 的 网 站 和 移动 App 产品 ， 竞 争 
异常 激烈 。 在 这 种 环境 下 ， 如 果 企 业 能 做 好 精细 化 的 用 
户 行为 分 析 、 找 准 问题 所 在 ， 并 有 效 提出 改进 方向 ， 既 
能 避免 资源 浪费 ， 又 有 助 于 优化 产品 质量 ， 提 升 公司 竞 
争 力 。 

用 户 行为 分 析 通 常 应 用 于 以 下 场景 : 

(1 ) 运营 分 析 ， 用 户 来 源 渠道 统计 ， 有 助 于 判断 哪 
个 渠道 有 利于 拉拢 新 用 户 。 

(2 ) 产品 改版 分 析 ， 通 过 AB 测试 或 其 他 方法 来 分 
析 不 同 App 版 本 下 的 用 户 行为 ， 以 此 来 判断 哪个 版 本 会 
受用 户 喜 爱 ， 最 终 上 线 哪个 版 本 。 

(3 ) 预测 分 析 , 合理 构建 算法 模型 ,通过 训练 模型 、 
验证 模型 ， 最终 使 用 模型 对 用 户 关 键 行为 进行 预测 ， 提 
前 洞察 可 能 出 现 流失 的 环节 , 提早 干预 , 从 而 降低 流失 率 。 

(4) 采用 基于 用 户 的 协同 过 滤 算 法 进行 产品 或 内 容 
推荐 ， 即 为 A 用 户 推 荐 相似 用 户 B 用 户 感 兴趣 的 产品 或 
者 内 容 。 用 户 画 像 构 建 是 前 提 ， 用 户 行为 越 多 ， 推 荐 越 
精准 ， 用 户 的 使 用 率 和 使 用 时 长 也 会 优化 。 

2. 新 闻 App 用 户 行为 分 析 

据 2018 年 2 月 底 发 布 的 《第 43 次 中 国 互联 网 络 发 
展 状况 统计 报告 》 显 示 ， 网 络 新 闻 占 据 中 国 网 民 各 类 手 
机 应 用 的 前 三 位 ， 截 至 2018 年 12 月 底 ， 手 机 网 络 新 闻 
用 户 达到 6.53 亿 ， 占 手机 网 民 的 79.9%。 由 此 可 见 ， 通 
过 移动 设备 获取 新 闻 资 讯 已 经 成 为 非常 重要 的 渠道 。 

新 闻 媒体 ， 从 纸 媒 到 门户 再 到 移动 端 。 传 统 媒体 多 


是 以 文字 和 图 片 旦 现 ， 而 新 媒体 不 仅 可 以 通过 文字 、 图 
片 , 还 可 以 通过 图 集 、 视 频 等 多 元 化 方式 展现 新 闻 内 容 ， 
对 用 户 的 冲击 力 更 大 、 更 直观 。 在 新 闻 内 容 传播 的 同时 ， 
用 户 还 可 以 进行 评论 、 点 赞 、 转 发 ， 增 加 了 互动 社交 性 
也 扩大 了 传播 性 。 新 媒体 的 时 效 性 、 传 播 迅速 也 是 传统 
媒体 远 远 比 不 上 的 。 当 用 户 不 仅仅 是 看 新 闻 而 是 使 用 一 
个 新 闻 资讯 产品 时 ， 我 们 要 在 考虑 满足 用 户 对 新 闻 内 容 
需求 的 同时 也 要 考虑 到 用 户 的 体验 。 为 了 更 好 地 了 解 我 
们 新 闻 App 产品 的 使 用 情况 和 不 足 ， 本 文 将 就 新 闻 类 
App 的 用 户 行为 分 析 技术 做 些 分 析 和 总 结 。 


手机 搜索 65396 80.0% 62398 829% : 4.8% 
手机 网 络 新 闻 65286 799% : 6l959 : 823% 54% 
手机 网 络 购物 : 59191 |: 725% : S50563 ; 612% : 171% 
手机 网 上 支付 : 58339 : 71.4% : 52703 : 70.0% : 10.7% 


1 手机 网 民 各 类 手机 互联 网 应 用 使 用 率 图 


3. 用 户 行为 数据 采集 

用 户 行为 数据 的 采集 方式 直接 决定 了 数据 源 的 质量 ， 
是 用 户 行为 数据 分 析 的 基础 ,数据 的 采集 通常 采用 “ 埋 点 ” 
方式 。 埋 点 又 可 分 为 客户 端 埋 点 (前端 埋 点 ) 和 服务 需 
埋 点 (后 端 埋 点 ) 。 
3. 1 客户 端 埋 点 

客户 端 埋 点 还 可 分 为 代码 埋 点 和 可 视 化 埋 点 。 
3.1.1 代码 埋 点 

前 端的 代码 埋 点 ,顾名思义 是 在 产品 开发 阶段 ， 依 
据 PM 要 求 的 数据 需求 文档 ， 前 端 开发 人 员 在 每 个 需要 
采集 的 数据 点 写 入 代码 。 在 用 户 每 次 前 端 操作 时 能 够 触 
发 埋 点 上 传 数 据 。 
3.1.2 可 视 化 埋 点 

开发 加 入 “无 埋 点 ”的 采集 代码 ， 能 够 对 网 页 或 者 
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App 上 所 有 的 可 交互 事件 元 素 进行 解析 并 监测 ， 当 有 用 
户 操作 行为 (交互 事件 ) 发 生 时 ， 即 对 此 事件 进行 采集 、 
上 报 。 无 埋 点 并 不 是 不 用 写 入 任何 代码 ， 而 是 通过 代码 
将 所 有 事件 元 素 解 析 后 ， 以 可 视 化 的 方式 呈现 ， 让 PM、 
运营 经 理 等 可 以 根据 需要 自行 手动 选取 、 标 定 。 为 了 与 
开发 逐一 进行 代码 写 人 的 方式 进行 区 分 ， 被 称 作 可 视 化 
埋 点 。 可 视 化 埋 点 通常 通过 第 三 方 工具 实现 。 

3.2 服务 器 端 埋 点 
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为 分 析 等 。 用 户 画像 可 以 帮助 App 逐渐 实现 精准 化 营销 ， 
直接 进行 App 与 指定 用 户 之 间 的 点 对 点 交互 。 
4. 2 分 析 工 具 使 用 
用 户 行为 数据 分 析 工 具 通 常 有 以 下 几 种 : 
4.2.1 脚本 统计 
Python 、R 语言 是 常用 的 数据 分 析 语 言 ， 优 点 是 成 本 
不 会 太 高 ， 缺 点 是 开发 周期 长 、 学 习 成 本 高 ， 而 且 运 行 
效率 可 能 不 高 。 
4.2.2 第 三 方 统计 
Talking Data、Growing IO 、Google Analytics 等 工具 ， 
都 可 以 用 于 数据 分 析 ， 优 点 是 方便 快捷 ， 缺 点 是 成 本 会 
比较 高 。 
4.2.3 日 志 分 析 工 具 
日 志 分 析 工 具 , 如 splunk、ELK, 可 以 分 析 各 种 数据 ， 
而 且 有 统计 功能 ， 优 点 是 可 以 更 灵活 地 运用 于 自身 的 业 
务 。 
5. 实现 方法 
本 文 实现 了 新 闻 App 的 用 户 行为 分 析 ， 通 过 前 端 埋 
点 方式 采集 客户 端 用 户 行为 数据 ， 将 数据 传人 后 端 ， 后 


服务 需 端 埋 点 也 成 为 后 端 埋 点 ， 指 的 是 开发 在 服务 
器 端 写 入 代码 ， 采 集 了 前 后 端的 交互 事件 数据 以 及 存储 
与 业务 服务 顺 中 的 业务 数据 。 
三 种 方式 对 比如 下 表 1 所 示 : 
表 1 三 种 埋 点 方式 对 比 表 
ee rn | 
可 视 化 埋 点 前 端 代码 埋 点 | 代码 埋 点 
准确 度 低 中 高 
前 期 工作 重 低 高 高 
后 期 工作 量 高 度 低 
优 车 部 普 傈 单 ; 准确 展 局 ; 准确 芒 局 ; 
~ 便于 运营 和 产品 配置 自 定义 强 自 定义 强 
缺点 | 不 灵活 ; 网 络 传输 压力 大 | 工作 量 工作 量 
Pm 所 Heap Analytics 、 Google Analytics 、 
第 三 方 广 品 Growing IO TalkingData 
4. 分 析 数 据 


4.1 分 析 指 标 

行为 数据 分 析 ， 通常 要 靠 指 标 分 析 结 果 ， 选 取 合 适 
的 指标 ， 才 能 有 效 判 断 用 户 的 使 用 情况 和 App 的 问题 所 
在 。 下 面 介 绍 几 种 常用 的 指标 。 
4.1.1 新 增 用 户 

新 增 用 户 指 的 是 App 被 下 载 安 装 后 第 一 次 启动 App 
的 用 户 ， 用 于 衡量 推广 的 效果 。 通 常 按 照 时 间 和 渠道 来 
源 分 类 。 
4.1.2 活跃 用 户 

活跃 用 户 指 的 是 在 一 定 统计 周期 内 打开 App 的 用 户 
数 ， 一 般 用 来 衡量 App 的 运营 现状 。 
4.1.3 用 户 留存 率 

用 户 留 存 率 是 指 在 某 一 个 统计 时 段 的 新 增 用 户 数 中 
经 过 了 一 段 时 间 后 仍 打开 这 个 App 的 用 户 比例 ， 包 括 次 
日 留存 、7 日 留存 〈 如 今天 新 增 用 户 数 在 第 7 日 再 次 打开 
App 的 比例 ，14 日 和 30 日 留存 以 此 类 推 ) 、14 日 留存 、 


端 将 行为 数据 放 入 队列 ，splunk 通过 应 用 接收 队列 数据 
后 定时 进行 分 析 ， 并 将 统计 结果 放 回 队列 中 ， 程 序 取出 
队列 数据 放 入 MongoDB 数据 库 ， 最 终 页 面 展示 在 业务 系 
统 中 ， 供 业务 人 员 使 用 。 流 程 如 下 图 2 所 示 : 


由 —| 
| app 后 端 队列 全 


pp 用 户 移动 终端 PR 
| 
篇 分 析 结 果 分 析 一 
一 ~ we 
fit Wa 
业务 分 析 人 员 业务 统计 系统 mongodb 


2 ”App 用 户 行为 分 析 流程 


5.1 前 端 埋 点 

获取 用 户 行 为 数据 采用 前 端 埋 点 的 方式 ， 根 据 分 析 
需求 ， 规 划 埋 点 位 置 ， 定 义 埋 点 字段 ， 可 获取 真实 的 用 
户 行为 数据 ， 埋 点 上 传 字段 如 下 表 2 所 示 : 


表 2 前端 埋 点 字段 


30 日 留存 。 这 个 指标 是 验证 你 的 App 对 用 户 是 否 具有 吸 
引力 。 
4.1.4 启动 次 数 

统计 某 一 时 段 用 户 打 开 App 的 次 数 。 
4.1.5 使 用 时 长 

使 用 时 长 是 指 在 统计 周期 内 所 有 用 户 从 打开 App 到 
关闭 App 的 总 时 长 。 这 个 指标 考核 的 是 你 的 App 用 户 粘 
性 高 不 高 ， 也 反映 了 App 的 产品 质量 高 低 ， 使 用 时 长 一 
般 会 结合 启动 次 数 一 起 分 析 。 
4.1.6 用 户 画像 分 析 

有 了 用 户 数据 ， 再 做 用 户 画 像 分 析 会 更 加 容易 。 用 


户 画 像 是 对 人 口 属性 的 特征 分 析 、 用 兴趣 分 析 、 用 户 行 


拉 要 再 驻 
operateld 埋 点 采集 动作 类 型 
time 操作 时 间 
ip 设备 ip 地 址 
position 设备 位 置 
clientinfo 手机 型 号 
contentType 操作 信息 类 型 
contentld 文章 id 
title 文 草 标 题 
deviceld 手机 imer 号 
appSouce App 名 称 
msgword 点 搜 
id uuid 
createtime 人 库 时 间 (后 台 和 信 库 时 插入 ) 
userld 已 登录 用 户 上 传 用 户 id 
channel App 渠道 名 
version App 版 本 
sysVersion 设备 系统 版 本 
deviceScreen 设备 分 辩 挛 
netType 网 络 类 型 
latform 手机 平台 ( Android/ios ) 
deviceToken ios 
coordinates 上 传 设 备 经 纬度 
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脚本 对 数据 进行 分 析 。 然 而 ， 我 们 会 面临 如 下 问题 : 首 
先 原始 的 用 户 行为 数据 数据 量 非常 庞大 ， 普 通 数据 库 不 
适宜 存储 大 数据 ， 二 是 如 果 用 脚本 操作 数据 库 ， 数 据 库 


会 承受 较 大 压力 ， 分 析 数 据 的 速度 也 会 受到 影响 。 这 里 
我 们 选择 采用 splunk 来 接收 存储 数据 。 

Splunk 是 一 个 典型 的 大 数据 处 理工 具 ， 面 向 机 带 数 
据 的 全 文 搜索 引擎 ， 是 一 个 一 体 化 的 平台 : 数据 采集 - 
存储 -分 析 - 可 视 化 。Splunk 的 应 用 AMQP Messaging 经 
过 配置 可 直接 接收 队列 数据 ， 存 于 splunk 中 ，splunk 的 


专用 搜索 语言 SPL ( searchprocessinglanguage ) 语法 简单 ， 


表 3 为 埋 点 采集 动作 类 型 ( 字段 : operateld ) 。 
表 3 埋 点 采集 动作 类 型 
动作 数值 对 象 
注册 1 用 户 
登录 2 用 户 
打开 3 折 闻 、 栏 目 ( 要闻 等 ) 、app 
关闭 4 新 闻 、 栏 目 (要 闻 等 ) 、app 
收藏 5 新 闻 
赞 6 新 闻 
分 享 7 新 闻 
订阅 8 站 点 
评论 9 新 闻 
搜索 10 关键 词 
安装 11 App 


表 4 为 操作 信息 类 型 ( 字段 : contentType ) 。 
表 4 操作 信息 类 型 


底 
加 


类 似 sql， 可 以 直接 进行 分 析 ， 效率 高 速度 快 。 与 splunk 
类 似 的 工具 还 有 ELK，ELK 是 ElasticSearch ， Logstash ， 
Kibana 的 缩写 , 分 别提 供 搜索 , 数据 接 入 和 可 视 化 功能 ， 
ElasticSearch 是 一 个 基于 Lucene 的 开源 搜索 服务 。 使 用 
splunk 有 如 下 优势 : 

(1) 数据 导入 简单 ，splunk 提供 各 种 应 用 可 以 
直接 接收 不 同 数据 ， 适 配 性 强 ， 而 ELK 需要 filebeats 或 


视频 
直播 间 
专题 
华 媒 
评论 


用 户 相关 


|coo|~ | 中 | 上 | 己 | 王 


= | 
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5. 2 数据 可 靠 传输 机 制 
1 于 用 户 行 为 数据 并 发 量 大 且 频 率 高 ， 因 此 ， 我 
们 需要 采取 合适 的 方式 保证 数据 的 可 靠 传输 并 且 减 少 
对 后 端的 压力 。 这 里 我 们 采用 消息 队列 方式 进行 数据 传 
输 ， 消 息 队 列 指 的 是 在 消息 传输 过 程 中 保存 消息 的 容 
器 ， 埋 点 获取 的 用 户 行为 信息 ， 通 过 App 后 端 传人 队列 
rabbitmq 中 ， 采 用 消息 队列 临时 存储 数据 ， 有 以 下 好 处 : 
5.2.1 异步 处 理 ， 减 少 请 求 响 应 时 间 

一 次 用 户 行为 ， App 前 端 获取 埋 点 数据 后 会 向 后 端 
进行 请 求 ， 后 端 接 收 数据 后 将 其 存 人 预先 规定 好 的 存储 
设备 中 。 然 而 ， 这 样 App 后 端 就 会 承受 较 大 压力 ， 一 是 
前 端 频繁 的 请 求 ， 二 是 存储 数据 请 求 响应 的 过 程 。 使 用 
队列 方式 ， 可 以 减少 请 求 响应 时 间 ， 将 数据 直接 放 入 队 
列 中 ,然后 让 消费 者 再 去 存储 数据 ， 异 步 处 理 , 减轻 了 
后 端 压力 。 
5.2.2 应 用 解 辜 ， 不 影响 App 的 正常 运行 

当 App 后 端 要 去 存储 用 户 行为 数据 时 ， 如 果 存 储 设 
备 出 现 无 法 访问 等 问题 ， 那 么 App 的 正常 运行 可 能 就 会 
受到 影响 。 这 时 如 果 中 间 加 入 队列 方式 ，App 后 端 将 数 
据 传 人 队列 , 就 不 会 影响 到 App, 数据 只 会 堆积 到 队列 中 ， 
但 也 能 确保 用 户 行为 数据 的 完整 性 。 

综 上 ， 我 们 采用 了 队列 方式 存放 及 管理 埋 点 数据 ， 
以 降低 前 端 数据 采集 与 后 端 数据 处 理 系统 之 间 的 耦合 性 ， 
提升 系统 运行 效率 。 
5.3splunk 应 用 接收 mq 数据 

队列 中 的 用 户 行为 数据 需要 由 消费 者 取 走 ， 通常 可 
以 用 程序 方式 ， 消 费 队 列 数据 将 其 放 入 数据 库 中 ， 再 用 


J 


者 logstash 接收 ,接收 后 再 传 信 ES， 配置 过 程 较 为 繁 
琐 。 如 图 3 所 示 ，splunk 可 以 通过 应 用 接收 MySQL 数 
据 、Citrixnetscaler 数据 等 等 ， 经 过 配置 即 可 导入 。 其 中 
amqp_ta 即 为 接收 队列 数据 的 应 用 , 部 分 配置 如 图 4 所 示 。 
图 5 为 导入 的 用 户 行为 数据 。 


Name $ 文件 夹 名 称 * 
SplunkForwarder SplunkForwarder 
SplunkLightForwarder SplunkLightForwarder 
Splunk Add-on for Citrix NetScaler Splunk_TA_citrix-netscaler 
Splunk Add-on for MySQL Splunk_TA_mysql 

Palo Alto Networks Add-on Splunk_TA_paloalto 

Palo Alto Networks SplunkforPaloAltoNetworks 
Log Event Alert Action alert_logevent 

Webhook Alert Action alert_webhook 


3 splunk 安装 应 用 图 


Virtual Host 
/ 


Broker Virtual Host 


国 Use ssL? 


Message Consumer Settings 
Queue Name 
appUserActionSplunk 
Name of gueue to consume from 
Exchange Name 
app_useraction 
Exchange name.Leave empty to use the Default Exchange. 
Routing Pattern 


fanout 


4 splunk 配置 队列 数据 导入 
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19/03/17 { [-] 
18:41:56.000 appSouce: chinanews 
channel: huawei 
clientInfo: VKY-ALOO 
contentId: 8782157 
contentType: 5 
coordinates: 32.125086,118.93862 
createtime: 2019-03-17 18:41:56 
deviceId: 865582034956038 
deviceScreen: 1080*1920 
deviceToken: 
id: 10072457c0c72c244be284b0447ebd279f7a 
ip: 117.62.250.126 
msgword: 
netType: wifi 
operateId: 4 
platform: android 
position: 中 国 | 江苏 省 | 南京 市 | 栖霞 区 , 虞 山东 路 
pubtime: 2019-03-17 12:20:20 
sysVersion: 8.0.0 
time: 1552819289178 
title: 成 都 七 中 实验 学 校 食堂 食材 粉条 不 合格 网 传 照片 或 系 人 为 造假 
userId: 5c204d1c263ec56ba09abdc0 
version: 6.5.6 
videoId : 
videoType: tg 
} 
显示 为 原始 文本 
channel = huawei 


图 5 用 户 行为 数据 事件 


host = mq2 ; sourcetype = json:custom 


导入 elasticsearch 的 数据 要 通过 logstash 处 理 为 符合 
要 求 的 数据 格式 ， 通 过 配置 logstash/config/logstash.conf 文 
件 中 input 、filter 、output 模块 ， 如 下 图 6 配置 input 模块 
和 图 7 配置 output 模块 ， 最 终 导 入 elasticsearch， 图 8 即 
为 kibana 查看 导入 es 的 json 格式 数据 。 
input { 


beats { 
port => 5044 


} 

| rabbitmq 1 
host => "qi™ 
port=> 5672 
user => 
password => 
dueue => "apptoelk" 
durable => true 
codec => "]son" 
type => "mq" 


6 ”logstash 配置 input 模块 
output { 
if [type] == "mq" 1 
elasticsearch { 
hosts => ["127.0.0.1:9200"] 
index => "appuser_access_%{+YYYY .MM.dd}" 
template => "/usr/local/logstash-5.5.1/config 
/es_template/mq.json" 
tempLate_name => "mq*" 
tempLate_overwrite => true 


} 


7 logstash 配置 output 模块 


a E WO 
Selected Fields 
AvallableFields 四 3 
eR a 
Gumestem lp per 30 minutes 
Te 
type » March 23rd 2019, 00:00:48.088 emia 87 D chammel; App Store videsItE Gte; 牡 崩 工 蜗 林 私 建 事件 ; 调查 组 


* appSouce 全 面 进驻 涉 事业 主 接受 讽 查 type mq devicsId: 98462129-75A7-4! 
channel Matform: I0S 


eontentlype; 3 deviceS oreen: 414°896 sys¥ersion: 12.1.4 centetine; 2019-03-23 


8 导入 elasticsearch 后 kibana 可 视 化 图 


(2 ) 字段 识别 容易 ，splunk 支持 自动 抽取 字段 ， 搜 
索 时 也 会 动态 抽取 新 的 字段 ， 而 这 是 elastic 不 支持 的 。 
(3) 数据 分 析 和 处理 上 ，ElasticSearch 使 用 Search 
API 来 实现 ， 而 splunk 提供 较 强 大 的 SPL， 语 法 简洁 ， 非 
党 易 用 ， 以 查看 某 天 的 新 闻 阅 读 量 排行 为 例 ，splunk 的 
SPL 语句 如 下 : 
host=mq2 


| search appSouce=chinanews operateld=3 contentType=3 

| stats count as pv by contentld | sort -pv 

Python 调用 ES 的 脚本 如 下 图 9 所 示 ， 比 SPL 略 复杂 ， 
如 果 需 要 更 复杂 的 计算 ， 更 会 凸显 SPL 的 优势 。 


es = Elasticsearch([{ "host': 一 DD','port' :92606}]) 
query = { 
"query": { 
"bool": { 
"must": [{ 
"term": { 


"appSouce": "chinanews", 


}, 
{ 
"term": { 
"contentType": "3" 
}, 
{ 
"term": { 
"operateId": "3" 
} 
}] 
} 
}， 
"aggs":{ 
"pv" 
"terms":{ 
"field":"contentId", 
"size”: 166 
} 
} 


searchresult = es.search(index= "appuser_access_2619.93.23" ， body=query) 
for newspv in searchresult['aggregations']['pv']['buckets']: 
print newspv 


9 Python 调用 ES 


contentld$ / pv 
8788405 607 
8788273 525 
8788431 443 
8788244 435 
8788524 420 
8788173 386 
8788409 377 
8788028 326 
8788482 304 
8788403 263 


10 splunk 分 析 结 果 图 


通过 图 10splunk 结果 和 图 11python 调用 ES 结果 前 
十 名 对 比 ， 可 以 看 出 ,分 析 结 果 稍 有 偏差 ， 从 kibana 查 
看 访问 量 最 高 的 contentId8788405 如 图 12 所 示 ， 可 以 看 
出 结果 应 该 和 splunk 统计 的 相同 均 为 607 才 对 ， 但 是 聚 
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合 运 算 过 后 ， 结 果 就 不 准确 了 。 查 看 ES 官方 文档 可 以 了 
解 到 api 提供 的 聚合 运算 确实 存在 一 定 误差 。 因 此 语法 简 
单 易 习 ,计算 准确 的 splunk 就 更 有 优势 了 。 


{u'Kkey': u'87884865"', uy'doc count': 732} 
{u'Kkey': u'8788273', u'doc count': 546} 
{u'Kkey': u'8788524"', uy'doc count': 536} 
{u'Kkey': u'8788431', u'doc count': 523} 
{u'key': u'87884869', u'doc count': 436} 
{u'key': u'8788482', Uu'doc count': 354} 
{u'key': u'87884863', u'doc count': 317} 
{u'Kkey': u'8788658"', uy'doc count': 281} 
{u'Kkey': u'8788173', uy'doc count': 264} 
{u'Kkey': u'8788455', uy'doc count': 257} 
图 11 Python 调用 ES 分 析 结 果 图 

607 hits New Save Open Share @March 23rd 2019, 00:00:00.000to March 24th 2019,00:00:00,000 

contentld:8788405 AND contentType:3 AND appSouce:chinanews AND operateld:3 四 


12 kibana 查看 content1d8788405 访问 量 


(4) 可 视 化 方面 ，ELK 用 的 是 kibana，splunk 直接 

在 平台 上 集成 了 非常 方便 的 数据 可 视 化 和 仪表 盘 功 能 ， 
通过 简单 配置 就 可 以 进行 可 视 化 分 析 。 
5. 4 splunk 定时 统计 输出 

Splunk 的 告警 功能 能 够 满足 对 数据 进行 定时 统计 分 
析 的 需求 。 如 下 图 13 所 示 ， 每 天 0 点 执行 SPL 语句 ， 语 
句 实现 了 统计 昨日 访问 量 前 100 名 的 正文 稿件 ， 结 果 数 
量 大 于 0 时 ， 触 发 执行 Python 脚本 mq.py，Python 脚本 实 
现 将 统计 结果 处 理 后 放 到 队列 。 


编辑 告警 x 


appCountday 
手 述 。 正文 统计 每 天 


搜索 host=mq2 
|search appSouce = chinanews operateId = 3 contentType=3 
| where isint(contentId) 
| stats count as pv dc(deviceId) as uv by conrentId,title,pubtime 
| sort limit=100 -pv 


Cron 表达 式 O0*** 如 00 18 “(本 天 下 午 6 二 ， 了 解 要 多 信息 


触发 条 件 
发 千村 条 件 引 果 由 
大 于 ~ 0 
朋 发 -次 每 人 结果 
限制 7 
甬 必 操作 
+ 添加 操作 ~ 
狼 必 后 。 ~ 二 全 淮 


加 运行 尖 李 告 各 MF 已 正式 到 用 。 改 用 创建 自 定义 告 若 操作 封 菊 自 定义 科 本 。 了解 
更 多 信息 已 


文件 名 称 | mqpy 
定位 于 SSPLUNK_HOME/biyscrpts 或 
S$SPLUNK_HOME /etc /launcher /br senpts 


™ Ea 
13 splunk 定时 统计 分 析 


5.5 页 面 展示 
Java 程序 取 上 一 步 队列 里 的 结果 ， 放 入 mongodb 数 
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据 库 中 。 业 务 统计 系统 将 结果 展示 在 页 面 中 ， 某 天 的 正 
文 访问 量 排行 部 分 内 容 统计 如 下 图 14 所 示 。 


序号 发 布 时 间 新 闻 标题 访问 量 
1 2019-03-15 16:50:07 李克强 开 让 布 公 答 中 外 记者 问 谈 经 济 热 题解 民生 难点 826 
2 2019-03-16 17:58:39 努 尔 。 白 克 力 严重 违纪 违法 被 开除 党 精 和 公职 769 
3 2019-03-15 22:46:29 3。15 晚 会 卓 光 了 这 些 消费 陷阱 ， 别 再 被 坑 了 697 
4 2019-03-16 00:08:42 香 棒 自 由 取代 车 厘 子 自由 最 贵 的 1 斤 价格 超 200 元 443 
5 2019-03-16 01:45:25 3，15 晚 会 落幕 ， 这 些 企业 被 就 地 查处 ! 227 
6 2019-03-16 11:51:00 360 度 解析 卡 纳 瓦 罗 ! 他 可 能 是 国足 史上 最 帅 的 主帅 了 …… 183 
7 2019-03-15 21:37:13 医生 说 过 哪些 令 你 震惊 的 话 ? 了解 一 下 180 


14 业务 统计 系统 部 分 统计 结果 


结语 

综 上 ，splunk 为 用 户 提 供 了 一 个 存储 和 处 理 数据 的 
平台 ， 以 最 简单 的 方式 将 数据 接 入 平台 ， 最 快 的 速度 计 
算数 据 ， 让 业务 人 员 根 据 自 身 需 求 ， 利 用 平台 上 的 数据 
解决 自己 实际 业务 中 的 问题 。 这 样 的 方式 可 以 在 更 多 的 
行业 和 领域 进行 复制 。 将 splunk 应 用 于 新 闻 App 用 户 行 
为 分 析 的 实现 , 帮助 我 们 很 好 地 贴 合 实际 业务 进行 分 析 ， 
更 深层 次 认识 产品 现状 ， 对 App 的 运营 开发 、 改 善 优化 
有 具有 指导 意义 。 
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